GPT 5.4 AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 GPT 5.4

时间 详情
2026-04-08
16:36
Meta 发布 Muse Spark:原生多模态与并行推理的突破—权威跑分与商业影响深度分析

据 The Rundown AI 报道,Meta 推出其超智能实验室(由 Alexandr Wang 领导)的首款模型 Muse Spark,具备原生多模态、工具调用、可视化思维链及“沉思模式”,可编排多代理并行推理。根据 The Rundown AI,Muse Spark 在 Humanity's Last Exam(无工具)得分 50.2,超过 Gemini 3.1 Deep Think 的 48.4 和 GPT 5.4 Pro 的 43.9;在 FrontierScience Research 得分 38.3,接近 Gemini Deep Think 的两倍(23.3)。据 The Rundown AI,Meta 亦公布其劣势:ARC AGI 2 为 42.5(低于 Gemini 的 76.5),Terminal-Bench 2.0 为 59.0(低于 GPT 的 75.1)。据 The Rundown AI,模型在健康推理方面表现突出,契合 Meta“个人超智能”战略;该模型在重构 AI 技术栈后 9 个月完成,凭借每日 35 亿用户的分发潜力,有望迅速推动助手与代理工作流的应用落地与商业化。

2026-03-29
19:21
SlopCodeBench重磅分析:威斯康星大学与MIT揭示AI编程基准失真—11款模型、93个检查点却零端到端解题

据God of Prompt在X平台报道,威斯康星大学与MIT发布SlopCodeBench,证实以通过率为核心的编码基准无法识别迭代开发中的结构性退化;在包含Claude Opus 4.6与GPT 5.4的11款模型上,零模型完成端到端解题,且89.8%的轨迹中冗长度上升(据该贴文)。据该线程介绍,基准包含20道题与93个检查点,模型必须在自身代码基础上按更新规格扩展,实现测试通过但复杂度与重复样板累积;代理代码侵蚀度为0.68,而人类仓库为0.31,代理冗长度0.32而人类为0.11,成本从首到末检查点增加2.9倍但正确率未提升,最高严格解题率仅17.2%(据该贴文)。该报道还称,对GPT 5.4的“反Slop”提示可使初始冗长度下降34.5%,但退化斜率不变,表明本质是架构与局部最优驱动,提示企业应采用度量可维护性、可扩展性与全生命周期成本的新型基准以评估AI编程助手的商业价值。

2026-03-12
05:26
OpenClaw 2026.3.11 重磅更新:OpenRouter 免费百万上下文、GPT 5.4 不中断、Gemini Embedding 2 记忆增强、Go 支持与安全加固

据 @openclaw 在 X 上发布的信息,OpenClaw 2026.3.11 推出 Hunter 与 Healer Alpha,并通过 OpenRouter 提供免费百万令牌上下文模型,适合超长文本检索与RAG场景(据 OpenClaw GitHub 发布说明)。据 OpenClaw,版本集成 Gemini Embedding 2,用于长期记忆与向量检索,提升召回与相关性。另据该项目公告,GPT 5.4 经过调优,解决中途停顿的问题,降低代理循环与代码生成截断风险。根据其 GitHub 说明,OpenCode 新增 Go 语言支持,覆盖自动补全、重构与测试生成;同时开展安全加固冲刺,包括依赖锁定、密钥扫描与沙箱收紧,提升模型工具链安全。对企业而言,据 OpenClaw,这些更新可降低长上下文成本、提高检索精度并加速多语言开发流程,利于构建具备持久记忆的智能体与长文档分析应用。

2026-03-07
02:34
LLM长篇创作难题解析:GPT 5.4 Pro、Claude、Gemini 3.1 Pro在10段推理小说基准上的失败与启示

据Ethan Mollick在Twitter披露,这一“10段推理小说”难题暴露主流LLM在规划、线索埋设与叙事一致性上的缺陷:Claude遗漏关键线索、ChatGPT 5.4 Pro线索过于直白且文风堆砌、Gemini 3.1 Pro对“冰”线索的因果解释失败(来源:Ethan Mollick,Twitter)。Mollick指出,前五段需埋下可被推理出的证据但对大多数读者仍足够隐蔽,此要求对多步叙事规划与约束跟踪形成强压(来源:Ethan Mollick,Twitter)。对企业而言,这提示在长文案、合规情境故事、教育案例与互动叙事等场景存在质量与风险控制难点,需引入结构化大纲锁定、剧情图工具与事后验证链以降低幻觉与“缺线索”失误(来源:Ethan Mollick,Twitter)。